【NLTK基础教程】02 何为文本歧义

文本歧义,书中的定义式从原生数据中获取一段机器可读的已经格式化文本之前所要做的所有预处理工作,以及所有繁复的任务。该过程涉及到数据再加工,文本清理,特定项处理,标识化处理,词干提取或词型还原以及停用词移除等操作。

好吧,书中将文本歧义定义为数据预处理这一些列工作,难到文本歧义不应该是一个文本,多个意思,从而有歧义这个意思吗?没搞懂(问号脸.jpg).如果是把文本歧义理解成通过一系列数据预处理工作,消除文本歧义,好吧,貌似说得通。那也不纠结那么多了,下面看一个例子,解析一个csv文件。

import csv
with open('example.csv') as f:
    reader=csv.reader(f,delimiter=',',quotechar='"')
    for line in reader:
        print line[1]

代码说明:
这几句代码整体上是没有什么问题的,这里只是提下csv的reader方法的参数:
①delimiter:一行中的分隔符
②quotechar:每个字段用的类型符号
这里就会涉及到处理文档类型的一般流程,具体见下图:
image
在大多数情况下,我们所遇到的这些数据中的某一个,而python中也有对于这些数据格式最常见的封装格式。通过该模块,我们可以使用各种不同的分离器和引用符等工具。
接下来,我们再来看一个json文件示例:
①json数据为:

{
    "array":[1,2,3,4],
    "boolean":True,
    "object":{
        "a":"b"
    },
    "string":"hello world"
}

②处理该字符串的解析代码如下:

import json
jsonfile=open("example.json")
data=json.load(jsonfile)
print(data['string'])

好吧,这个就记录到这里吧!


文章作者: IrvingBei
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 IrvingBei !
评论
 上一篇
dl-机器学习和深度学习资料 dl-机器学习和深度学习资料
为了保存资料,于是上传至博客。 机器学习(Machine Learning)&深度学习(Deep Learning)资料(Chapter 1)注:机器学习资料篇目一共500条,篇目二开始更新希望转载的朋友,你可以不用联系我.但是一定
2018-01-24
下一篇 
【NLTK基础教程】01-02 利用nltk统计词频 【NLTK基础教程】01-02 利用nltk统计词频
在上篇中,简单的介绍了三种获取有效文本的方法,那么接下来就利用nltk来统计这些文本中出现的次数。我们首先来看下传统统计词频的方法: import operator freq_dis={} for tok in tokens: if
  目录